Model Selection

Multilingual visual question answering

# Multilingual visual question answering

Pix2struct Screen2words Large

A large-scale vision-language model based on the Pix2Struct architecture, fine-tuned specifically for generating UI interface function descriptions

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase